我来科普下:什么是置信区间? 为什么置信区间非常重要?
医学研究,特别是随机对照试验,置信区间非常重要。但它在中文论文文献中被长期忽视,因而我今天特地来科普下。
统计分析结果中,P值很重要。人人都爱P值!但光光这一“屁用”的值是不够的。我一直在说,统计分析报告,要效应值、P值、置信区间三者皆俱。
先举个例子:一项临床试验,研究对象是高血压患者,随机被分为两组,分别用药物联合运动锻炼(试验组)和药物(对照组)进行血压控制,对每人治疗前、后收缩压(mmHg)进行测量,剔除失访人群后,分别得到实验组和对照组血压下降值,比较两组人群血压下降值有无统计学差异。
在这个案例中,探讨联合干预相对药物干预的效果,要解决的的几个关键问题:
第一,到底有没有效果?
第二,有多大的效果?
第三,有效果的可信度高不高?
大多数中文论文只回答了第一个问题,也就是到底有没有效果。
比如采用两样本t检验来进行分析,如果存在着统计学差异,那么我们会说:试验组、对照组干预前后差值差异具有统计学意义(P=0.005)
但是这一统计结果没有回答干预措施到底有多大的效果。统计学效果指的是效应值。关于效应值,我在之前的文章写过了。希望大家在看本篇文章之前可以浏览下下面的推文。
在本例研究中,效应值是4.70 mmHg。
但是光报告效应值还不够,我非常强烈建议同时报告效应值的置信区间,一般是95%的置信区间。
1. 什么是95%置信区间
置信区间,英文是Confidence Interval ,缩写是 CI,所以95%置信区间,又称为95%CI,它是关于总体参数不确定性的描述。
那么什么是总体参数呢?说来话长~~~
统计学是抽样研究,通过抽取一定数量的样本来开展分析。比如,我想了解所有人服用高血压药物的疗效。但是,我总不能所有人都调查一番,一般是抽取少量人,比如300人,询问他们高血压服用后血压下降水平。接着,经统计发现300人血压平均下降20.5mmHg。这个20.5我们称之为样本的信息,或者专业术语是统计量。但是20.5mmHg不全是我想要的,我想知道所有人服用高血压药物后的疗效是多少。
于是需要进一步分析,根据20.5 mmHg的信息去猜总体的信息,总体的信息就是参数。
但是猜总体,能够猜得准吗?猜不准!统计分析只能猜个大概!
于是,猜出总体的过程中,诞生了两个同出一源的概念,P值和置信区间。
首先是P值。对于非统计专业人士来说,P值可以认为两组均数总体上没有差异的概率(注意:这是不太正确的说法,但是对于非统计专业人士来说,这样理解没问题)。比如,试验组、对照组干预前后差值差异具有统计学意义(P=0.005),意味着,疗效没有差别的概率不到千分之五!所以我们认为有差别。
因此,这个P值其实是一个粗暴、武断的结论,它只回答了"到底有没有差别"这个问题。
而置信区间则告诉我们:它们差别是多大!
我刚才算出来两组差值是4.70,这意味着总体上两组疗效真的差4.7 mmHg吗?不是的,这个差别是样本的差别,总体还没有猜呢?
实际上,我们无法准确猜出总体的位置,只能猜总体大概的位置,所以总体值一般是一个区间。你看它的英文:Confidence Interval,意思是信心区间。因此,95%置信区间可以通俗地(但不完全正确)理解为总体均数有95%的可能性落在这一区间内(这个理解虽然但不完全准确,但对于非统计专业人士,这样理解没有毛病)。
因此,我们的结果就很丰富了:
•试验组、对照组干预前后差值差异具有统计学意义(差值4.70,95%CI1.48-7.91,P=0.005)
完美!
2. 置信区间能提供什么信息?
2.1 置信区间能够判定是否具有临床意义。置信区间是信息性的,因为它们显示了结果支持的效应大小的可能范围。置信区间给我们的非常重要的东西是指出,总体均数不是4.70!两组药物疗效虽然P<0.05,而显示有效,但并非就是是临床上的有效!
比如说临床上药物有效的界值是3mmHg(这个是我举例的,别信以为真),那么我这药物还值得推荐吗?
药物联合运动锻炼(试验组)相对单纯药物组的效果是4.70mmHg,95%CI1.48-7.91,说明效果最低是1.48,最高是7.91,而不是4.70mmHg。我们用工字型反映置信区间的位置。
从上图可以得到一些现象:
(1)工字型置信区间与差值0值线不交叉,则P值<0.05。
(2) 总体均数1.48靠近与0值线,而穿过临床意义的3.0线。显然总体均数很可能低于3.0 mmHg的。既然如此,我们不能说这个药物肯定有临床价值了!
所以置信区间给出的信息,等同于P值,而又远远大于P值,特别是置信区间的下限!
2. 2 当P<0.05 ,置信区间可帮助判定项目结论的可靠性!
有两个研究,甲和乙。经分析,两个研究P值都小于0.05,但结果是不同的。第一,可能差值差别不大,第二,置信区间不同。这里说明两件事情,第一,甲乙研究效应值相似,但是,乙研究的结论可靠性远不如甲。因为乙的置信区间较宽,意味着猜测总体效应猜得不准。
当碰到乙的情况,而你又算出来P值小于0.05时,千万别觉得你做出了大成果,也许,真的是你运气比较好。
2.3 当P值大于0.05,置信区间也可提示更多的信息。
下面这幅图,四个结果置信区间都包括了0直值线,意味着P 均大于0.05,但是各个置信区间带来的信息是有区别的。
图来自“ DOI: 10.5694/mja2.50926 ”
第一条,置信区间大部分位于正值范围内,虽然P 大于0.05,但该干预措施很可能是有效果的。没有统计学意义原因很可能是样本量不够,造成置信区间过宽。
第二条,置信区间位于临床意义-3、3线之间,意味着没有效果
第三条,置信区间大部分位于负值范围内,虽然P 大于0.05,也能说明干预效果不尽如人意。
第四条,显示出了结果的不确定性!
3. 什么时候需要计算置信区间
3.1现况调查,描述人群主要指标时
现况调查主要目的就是了解人群现状,了解总体人群现况。因此,描述均数和率的时候,非常有必要带上置信区间!
比如:279名护生护生患者安全感知总分71.42±10.91分(95%CI70.14-72.71) 。
又比如,2345名社区人群高血压患病率为35.5%(95%CI 31.1%-39.6%)。
3.2疗效和发病危险性、预后评价时
在RCT研究、病例对照研究和队列研究时,当我们计算率差、均差、OR、RR、HR,千万别忘记同时计算置信区间!像下面的结果,率差没有,置信区间也没有,是不行的。
结果显示:实验组总有效率为 83.3%(35/42),对照组总有效率为84.5%(38/45),两组比较差异无统计学意义(P>0.05)
4. 总结
相对于P值来说,置信区间信息量更大,其江湖地位与P值相当。因此,我建议医学研究撰写统计报告时,必须同时报告效应值、P值和置信区间,让读者能够看到更多的信息。
计算不难,能做到锦上添花,何乐而不为呢?
更多信息
培训通告